15 Mai 2023
Superada pelos algoritmos como sistema de tomada de decisão, a linguagem é rebaixada a um papel auxiliar. Perde sua função de garantir uma tentativa confiável de apresentar a “realidade” no contexto.
Neste texto, Derrick de Kerckhove faz um balanço sobre as questões críticas e as oportunidades da evolução da inteligência artificial e propõe ações para apoiar seu desenvolvimento.
Trata-se de um manifesto em torno do qual se articularão as iniciativas dedicadas aos 40 anos da Media Duemila, revista nascida em 1983 e que reúne a história da inovação, sobretudo italiana, em particular no mundo da imprensa.
De Kerckhove foi diretor por mais de 20 anos do Programa McLuhan em Cultura e Tecnologia da Universidade de Toronto, e atualmente é professor no Politécnico de Milão, na Itália.
O artigo é publicado por Media Duemila, 13-05-2023. A tradução é de Moisés Sbardelotto.
A primeira, a World Press Photo 2023, está na memória de todos, a de Iryna Kalinina saindo às pressas da maternidade do hospital de Mariupol bombardeado, onde ela esperava o trabalho de parto. As mídias russas oficiais imediatamente afirmaram que se tratava de uma foto falsa, manipulada pelos ucranianos.
World Press Photo 2023 (Foto: Evgeniy Maloletka/AP)
A segunda é a do Sony World Photography Award, de Boris Eldagsen, que imediatamente rejeitou o prêmio, confessando que a já famosa imagem de duas mulheres não era uma foto autêntica, mas sim uma imagem inventada por um poderoso software de criação de imagens generativas.
A negação da autenticidade da foto de Iryna Kalinina é um comportamento padrão esperado pela mídia russa. Faz parte do panorama geral das caóticas fake news e da negação de provas a que o mundo se acostumou desde que as mídias sociais foram utilizadas para fins políticos e comerciais.
Foto vencedora do Sony World Photography Award (Foto: Boris Eldagsen)
A segunda fotografia é outra questão. Seu autor explicou à imprensa que recusou o prêmio, não pelo remorso por ter enganado o júri, mas sim para chamar a atenção para o perigo de uma tecnologia tão poderosa quanto a fotografia guiada pela inteligência artificial.
O evento abriu os meus olhos de modo chocante. Por mais de 70 anos, como a maioria dos meus contemporâneos, eu estava acostumado a assumir como uma obviedade a fotografia como reflexo, representação e garantia da veracidade de eventos e fisionomias. É claro que, como outros estudiosos da mídia, eu estava ciente das inúmeras abordagens críticas à “ilusão de realidade” graças à qual as pessoas geralmente confiam na fotografia.
Mas essa criação de uma “realidade” ex nihilo é algo completamente diferente. Minha confiança na fotografia foi despedaçada para sempre, somando-se às minhas dúvidas sobre os trabalhos dos meus estudantes, sobre as notícias que leio online ou impressas, sobre os vídeos que assisto, sobre a música que escuto e assim por diante.
O ponto que quero enfatizar é que a chegada da fotografia à categoria das provas questionáveis fez ruir o último muro de defesa que eu havia erguido inconscientemente para proteger a objetividade de invasões e distorções subjetivas.
Essa nova ilusão simplesmente confirmou aquela que eu há muito tempo suspeitava ser a grande crise epistemológica do nosso tempo: a útil distinção entre fatos e opiniões. O corajoso gesto de Eldagsen deveria ser uma advertência para os jornalistas de todo o mundo, e a União Europeia já respondeu ao desafio criando o Ecat, o centro para a transparência dos algoritmos, que já é um posicionamento objetivo.
Enquanto estou em Perugia no Festival Internacional de Jornalismo, a convite da Representação da Comissão Europeia em Roma, realiza-se em Taormina o congresso sobre o “Estado Geral da Palavra da Editoria e da Informação”, ou seja, um encontro sobre o estado da língua na atual infosfera.
O congresso é documentado por uma mostra sobre “A herança de Falcone e Borsellino: crise e informação online, quais implicações para o jornalismo?”. Fico tentado a acrescentar: “quais implicações para os seres humanos?”.
Eu estou em Perugia, não em Taormina, portanto não posso relatar o que foi dito lá, mas sinto com força e urgência que todos nós precisamos de um congresso intergovernamental na União Europeia sobre os riscos apresentados pela inteligência artificial e pelos algoritmos ao discurso normal e sobre a relação deles com as noções convencionais do que é “real”.
Há uma diferença entre as fake news e as notícias criadas ex nihilo: as primeiras são uma mera distorção da evidência, baseadas, mesmo assim, em um contexto existente ao qual se referem, enquanto as segundas criam também o contexto, como a fotografia premiada. Uma é uma questão de “edição”, a outra, de “prompt engineering”.
O psicólogo e especialista em inteligência artificial Gary Marcus, que frequentemente e de forma persuasiva adverte sobre os perigos de uma confiança excessiva nos grandes modelos de linguagem (LLMs), diz que:
- é provável que alguns grupos de poder utilizem modelos linguísticos de grandes dimensões para produzir desinformação com tons de autoridade com referências e dados falsos em uma escala sem precedentes, na tentativa de influenciar as eleições e a opinião pública;
- a tendência de buscar informações médicas pode produzir acidentalmente desinformação nociva à saúde. De fato, as fazendas de conteúdo que são indiferentes à saúde de seus clientes podem gerar conteúdos médicos interessantes, indiferentes à sua veracidade, para vender cliques;
- os chatbots que oferecem apoio emocional e a prosa gerada por LLMs já abalaram os fóruns na internet e os processos de revisão por pares, inundando-nos com contribuições falsas.
Fico feliz por ter a Comissão Europeia que elaborou um barômetro dos níveis de risco, composto por quatro macrocategorias nas quais deveríamos considerar acrescentar a da “industrialização da desinformação”.
A função e as características de um sistema operacional são centrais para o funcionamento de qualquer computador. Ele comanda todas as aplicações. Qualquer pessoa que, por qualquer motivo, tenha tido que mudar do Windows para o Apple OS ou vice-versa sabe como foi tediosa, difícil e longa a transição. Imaginem, então, o quão mais dolorosa é a mesma passagem quando imposta a uma cultura inteira. Porém, é exatamente isso o que está ocorrendo hoje com as várias culturas do mundo. O problema não é apenas de software, mas também de civilização. Trata-se de uma passagem rapidamente acelerada da alfabetização aos algoritmos.
É justo sugerir, como faz Yuval Harari (2023), que a língua é o principal sistema operacional de todas as comunidades. É por meio das trocas linguísticas que uma comunidade, da família ao clã e à tribo, estabelece padrões e regras de comportamento que influenciam a religião, a educação, as práticas locais etc.
Não se trata de uma verdadeira novidade, porque ninguém questionaria ou diminuiria o papel da linguagem na organização das sociedades humanas. A atenção se torna muito mais precisa quando a metáfora do sistema operacional é aplicada aos sistemas de escrita. As diferenças, por exemplo, entre os sistemas fonológicos, como as literaturas ocidentais, e os icônicos, como o chinês, estão bem documentadas, e seu impacto sobre as visões de mundo tem um sentido intuitivo.
Mas outra observação pode explicar melhor como: ler inglês não requer nada mais do que conhecer o som das letras e a língua em que são escritas. Para ler chinês, por outro lado, pode não ser necessário conhecer a língua em si mesma, mas o leitor deve conhecer o contexto dos ícones apenas para avaliar o significado aproximado de cada sinal em qualquer língua a que se dirija (e há são mais de 80 diferentes apenas na China). O significado se dá literalmente nos textos fonológicos, mas fica em suspense (ou é adiado) nas escritas icônicas.
Menos evidentes, mas igualmente críticas, são as diversas abordagens cognitivas para ler latim ou inglês em comparação com aquelas para decifrar escrituras sem vogais, como o árabe ou o hebraico. Ambas as categorias são obviamente fonológicas, mas, para ler árabe, devido à falta de sinais vocálicos, até mesmo para decifrar o texto, o contexto também deve vir primeiro.
A diferença é esta: trata-se de ler o texto para evocar o contexto ou, como fazem os leitores chineses ou judeus, conhecer o contexto para poder ler o texto. A primeira abordagem dá autoridade ao texto, a segunda, ao contexto.
Essa diferença determina dois sistemas operacionais muito diferentes que condicionam os processos cognitivos, os hábitos e os artefatos culturais do leitor. Uma mente treinada por sistemas de leitura icônicos provavelmente olhará para o contexto mais amplo antes de fazer qualquer movimento ou tomar qualquer decisão.
Pelo contrário, uma mente acostumada a ler textos e, portanto, acostumada a pensar em palavras buscará um catálogo mental de soluções antes de aplicá-las à situação atual. A mesma mente também consultaria aquilo que está escrito sobre a situação, utilizando um manual, folheando um livro ou estudando a lei pertinente à situação.
Uma melhor compreensão dessas diferenças permitiria explicar as principais características que distinguem as civilizações ocidentais e as orientais. Mas esse não é o propósito atual da teoria. O que queremos explorar é quais são os comprometimentos epistemológicos na passagem do fato de sermos governados por operadores linguísticos para o fato de delegar os processos de tomada de decisão a algoritmos e inteligências artificiais.
O significado em si mesmo pode sofrer perdas, porque os algoritmos não fazem sentido para os seres humanos, mas apenas dão indicações para as máquinas. O código é um texto que deve ser interpretado pelas máquinas, não pelos seres humanos, e é por isso que seu funcionamento, após alguns movimentos iniciais, escapa à compreensão dos programadores.
A primeira e talvez a mais importante modificação de característica é que, embora todas as linguagens, independentemente de seu sistema de escrita, funcionam com e por meio do significado, os algoritmos simplesmente não o fazem. A linguagem produz significado, os algoritmos produzem decisões. Para chegar a uma decisão, a língua requer deliberação e compreensão, os algoritmos chegam a conclusões sem compreensão.
Quem já usou a tradução automática sabe que nem o Google nem o Deepl.com (outro excelente software de tradução) conhecem a língua de fato. É interessante notar que a tradução digital opera de forma icônica, mas não por meio da interpretação, como deve fazer o leitor chinês, mas sim combinando as respostas às solicitações e selecionando a melhor opção mediante um ranking estatístico.
É mais ou menos esse o funcionamento do ChatGPT e de todos os outros sistemas generativos de língua, imagens ou sons. Naturalmente, as análises obedecem a instruções fornecidas pelo ser humano e, no início, são supervisionadas por cientistas de dados, mas os progressos ultrarrápidos feito pelas gerações posteriores de GPT derivam da possibilidade de confiar que as instruções são claras o suficiente para permitir que o API pesquise, analise e ordene enormes quantidades de dados “sem supervisão”, economizando assim literalmente milhares de anos de trabalho humano.
O atual salto quântico na inteligência artificial se deve a esse passo e aos progressos realizados pela aprendizagem automática e pelo poder de computação. Tudo isso é positivo? Sim, mas…
O problema de uma máquina que fornece respostas utilizáveis e circunstanciadas às nossas perguntas não é que elas não sejam suficientemente válidas – pelo contrário, elas poderiam ser válidas demais para serem ignoradas.
A tentação de usar a máquina não diminuirá, dado o progresso fenomenal que os LLMs fizeram em pouquíssimo tempo. Também é preciso dizer que é evolutivamente sensato que a humanidade desfrute de todas as contribuições que deu ao arquivo coletivo da inteligência, do conhecimento e da memória humanos.
Finalmente, podemos recolher individualmente os benefícios de décadas de discurso humano online, alguns deles banais, inconsequentes ou deliberadamente enganosos, mas a maioria deles enche preciosos bancos de dados.
No geral, parece haver pouco de errado e muito de certo ao enfrentar com força total uma oportunidade tão inesperada. A pergunta então se torna: estamos realmente prontos para mudar o nosso sistema operacional de dialético, deliberativo e reflexivo para um sistema operacional quase oracular e pouco conhecido?
Estamos prontos para rebaixar a linguagem como principal meio de comunicação de massa e para delegar as nossas funções e estratégias cognitivas à automação?
Podemos nos dar ao luxo de deixar que os algoritmos se tornem a autoridade e reivindiquem a objetividade?
A língua, primeiro, e a escrita, depois, permitiram que as pessoas, por milênios, gerissem uma boa parte de suas vidas de modo autônomo, desde que se conformassem aos costumes locais e às barreiras legais e sociais. As literaturas ocidentais, em particular, ao permitirem que as pessoas assumam pessoalmente o controle da linguagem na leitura silenciosa, promoveram o pensamento linguístico e enfatizaram a autonomia cognitiva e social.
Deixar que as máquinas pensem e decidam em nosso lugar não garantirá que essa oportunidade permaneça aberta para sempre. O reconhecimento do significado na leitura dos modelos linguísticos poderia, no fim, levar a uma mera submissão à sua autoridade. Quanto mais os LLMs sabem, menos nós fazemos.
Alguns estudiosos, como Paolo Benanti (2021), falam de uma previsível “perda de competências”. Isso pode levar à perda de habilidades específicas, a começar pelo uso correto ou pertinente da própria linguagem. Os jornalistas são conhecidos por serem os principais usuários das LLMs. Isso lhes permite poupar tempo e garante a correção linguística.
Antes mesmo de qualquer intervenção direta dos LLMs, já observamos uma tendência geral de perder, diminuir ou ignorar as competências gramaticais e ortográficas na escola, online e até mesmo nos materiais impressos. O abandono da palavra certa ou da ortografia correta se traduz em uma perda de poder individual, sem falar da própria individualidade.
De fato, ainda que dirigidos a perguntas individuais, os LLMs funcionam como um sistema cognitivo coletivo. O mesmo vale para a linguagem, por sua própria natureza, com a diferença de que a linguagem e a escrita operam dentro da mente do indivíduo, enquanto os LLMs operam do lado de fora do corpo humano.
Depois, há uma questão ética, além de cognitiva, ou seja, de responsabilidade. Os jornalistas assumem a responsabilidade por suas palavras. Se for descoberto que eles não fazem isso, eles são chamados a responder por isso segundo a lei e são evitados por seus colegas. Os jornalistas podem obter grandes vantagens com o uso dos LLMs para acelerar a produção de artigos sensíveis aos tempos, mas, depois, a responsabilidade pelos conteúdos passa do autor humano para a máquina, ou pelo menos é compartilhada por ambos. E se, a posteriori, o artigo é lido rápida e superficialmente pelo autor humano, a responsabilidade é atribuída principalmente aos algoritmos.
De que modo tudo isso anuncia uma crise epistemológica? A linguagem humana perde sua autoridade e seu domínio sobre os algoritmos. Essa perda se verifica de duas maneiras convergentes. Primeiro, na avalanche de fake news que leva a uma era da “pós-verdade”, na qual todos estão em dúvida.
Segundo, nos algoritmos que ganham mais importância do que as declarações feitas pelo ser humano para reivindicar autoridade. Seja falada ou escrita, a linguagem não é “pensamento” em si, é apenas um código. Como a fotografia, a escrita não é “realidade”, mas uma representação parcial de alguns aspectos dela.
Muitas pessoas, no entanto, confundem os oráculos do GPT com a expressão do pensamento, assim como tomam a fotografia como a representação da realidade. Naturalmente, as pessoas informadas não cometem esse erro, mas, combinado com o ataque das fake news e a negação da ciência produzidas e distribuídas industrialmente, o pensamento simulado automatizado separa a linguagem de sua associação com a crônica autêntica.
Superado pelos algoritmos como sistema de tomada de decisão, a linguagem é rebaixada a um papel auxiliar. Perde sua função de garantir uma tentativa confiável de apresentar a “realidade” no contexto.
Uma característica do texto ou da imagem gerados que os coloca fora do reino da “realidade” convencional é que eles não têm nenhuma referência na realidade, o que significa que a relação entre as afirmações e seu significado responde apenas a sugestões, não a evidências contextuais “no mundo”.
Ao se utilizar os LLMs para narrar eventos amplamente comentados, a cronologia da publicação garante, por si só, um certo grau de autenticidade. Mas, em outras situações, mesmo que o conteúdo gerado contenha informações factuais sustentadas por métodos de referenciação acadêmica apropriados (supondo que não sejam “inverossímeis”, como costuma ocorrer), elas fazem parte da simulação e, portanto, em última análise, estão desprovidas de uma referência autêntica.
Um recente escândalo jornalístico envolveu a publicação no Die Aktuelle de uma falsa entrevista com Michael Schumacher, o heptacampeão mundial de F1, que ficou incapacitado por um acidente de esqui. Sua família processou o jornal… o jornalista foi demitido, mas o dano, emocional e social, foi feito.
Foto vencedora do Sony World Photography Award (Foto: Boris Eldagsen)
Em um post rico em pontos de reflexão, Jaron Lanier, criador da dataglove e designer das primeiras plataformas de realidade virtual, ressalta um ponto frágil dos produtos de inteligência artificial que até agora passou despercebido:
“Hoje, a maioria das pessoas assume que a Web, e de fato a internet sobre a qual ela é construída, é, por sua natureza, anticontextual e desprovida de proveniência. Presume-se que a descontextualização é intrínseca à própria ideia de rede digital. Mas nunca foi assim: as primeiras propostas de arquitetura das redes digitais, feitas pelo monumental cientista Vannevar Bush em 1945 e pelo cientista da informação Ted Nelson em 1960, conservavam a proveniência. Agora, a inteligência artificial está revelando os verdadeiros custos de ignorar essa abordagem. Sem a proveniência, não temos como controlar as nossas inteligências artificiais ou torná-las economicamente justas. E isso corre o risco de levar a nossa sociedade à beira do abismo.”
O perigo é que uma confiança excessiva e não regulamentada nos LLMs transformam tudo em uma farsa. Nessa fermentação, está desaparecendo gradualmente uma clara distinção entre objetivo e subjetivo. O resultado é que o uso de palavras, imagens e sons se transforma em um sistema de informação “free-for-all”, gerido por qualquer pessoa, em qualquer lugar e por qualquer meio.
Sob essas condições, o consenso só pode ser alcançado em “câmaras de eco” grandes ou pequenas, algumas tão grandes quanto uma nação, a maioria tão pequenas quanto uma única mente. Tudo isso está fadado a se transformar em caos e a pôr em discussão tudo aquilo que podemos conservar da democracia, já ameaçada dentro e fora da União Europeia. O desafio, portanto, é: como regulá-la?
Que objetivos a regulamentação deveria perseguir? Eliminar o perigo da desinformação? Proteger o usuário? Desafiar os usuários a explicarem de forma clara e inteligente o conteúdo, o escopo e o estilo do output da inteligência artificial generativa? Isso poderia funcionar na educação, mas não no jornalismo.
Uma primeira resposta-chave é sugerida por Paolo Benanti, professor de Media Studies na Pontifícia Universidade Gregoriana, de Roma:
“A pergunta é: temos o direito de ser avisados de que quem interage conosco é uma máquina e não um ser humano? Acima de tudo, os mais frágeis podem ser subjugados por esses novos sistemas que nunca se cansam e são cada vez mais invasivos. Se, depois, eles entram na esfera política para nos persuadir ou na função de governo para nos controlar, entramos aqui nos piores pesadelos distópicos da ficção científica. O instrumento é muito poderoso, e é por isso que precisamos de uma ética para torná-lo compatível com a vida que queremos viver.”
Uma sugestão semelhante foi feita no dia 28 de abril na The Economist por Yuval Noah Harari:
“Acabamos de encontrar uma inteligência alienígena aqui na Terra. Não sabemos muito sobre ela, exceto que pode destruir a nossa civilização. Devemos interromper a aplicação irresponsável de ferramentas de inteligência artificial na esfera pública e regular a inteligência artificial antes que ela nos regule. E a primeira regulamentação que eu sugeriria é tornar obrigatório que a inteligência artificial explicite que é uma inteligência artificial. Se eu estou conversando com alguém e não consigo dizer se é um ser humano ou uma inteligência artificial, esse é o fim da democracia.”
Jaron Lanier, cientista da computação, indica que a solução poderia e deveria ser automatizada:
“Recentemente, fiz uma experiência informal, telefonando para colegas e perguntando-lhes se há algo específico com o qual todos concordamos. Descobri que há uma base de acordo. Parece que todos concordamos com o fato de que as deepfakes – imagens, vídeos e outros elementos falsos, mas reais – deveriam ser rotulados como tais pelos programas que os criam. As comunicações provenientes de pessoas artificiais e as interações automatizadas projetadas para manipular o pensamento ou as ações de um ser humano também deveriam ser rotuladas. Concordamos também que esses rótulos deveriam ser acompanhados de ações que possam ser tomadas. As pessoas deveriam ser capazes de entender o que estão vendo e deveriam receber escolhas razoáveis em troca.”
Meu ponto é que devemos combater as percepções irrealistas (desmistificação), investir em um ambiente sociotécnico favorável (contextualização), envolver as partes interessadas e a sociedade civil (engajamento), criar quadros flexíveis (regulamentação) e desenvolver uma “diplomacia quântica” internacional (posicionamento).
E precisamos produzir um manual para listar e identificar as categorias e as variedades de inteligência artificial generativa, sem esquecer a arte.